当前位置: > 论文中心 > 经济论文 >

农业经济领域非相关文献知识发现用数据集的构建(2)

时间:2016-01-05 14:54 点击:
4.3数据转换程序的设计 题录下载程序运行后,会在指定目录留下几千个以TXT为扩展名的文本文件,这些文本文件的全部内容合并在一起便是维普期刊数据库中指定类目的全部期刊论文的题录。编写转换程序,循环读取这些文本

  4.3数据转换程序的设计

  题录下载程序运行后,会在指定目录留下几千个以TXT为扩展名的文本文件,这些文本文件的全部内容合并在一起便是维普期刊数据库中指定类目的全部期刊论文的题录。编写转换程序,循环读取这些文本文件,依次处理每条题录,将题录中的相关字段插入数据库,形成用于非相关文献知识发现的期刊论文题录数据库。

  农业经济题录数据库建立在MicrosoftSQLServer平台,只包括维普题录中与文献内容相关的字段。具体来说,农业经济题录数据库记录共包括5个字段,即记录号、题名、关键词、分类号、文摘。

  由于关键词和分类号均是可重复字段,多个关键词、分类号之间以空格作为分隔符。

  指定下载条件,经过题录下载程序和转换程序的运行,得到用于非相关文献知识发现的汉语期刊论文农业经济文献库。该文献库包含1989年至2008年维普期刊数据库中收录的发表在核心期刊上的与农业经济有关(即论文分类号中包含“F3”字样)的全部论文的题录数据,共有87506条。

  5、农业经济学领域非相关文献知识发现用词表体系的构建

  Swanson及后续的研究者以Medline为对象的非相关文献知识发现过程使用的是Medline自己的词表MeSH,部分研究者运用了UMLS,也有用到基因等词表的,个别算法直接用自由词。农业经济领域的非相关文献知识发现过程中用到的词表是由停用词表、通用词表、专业词表、同义词表组成的完整词表体系。

  5.1停用词表

  停用词表的构建与使用方法是业界常识。利用停用词表,可在信息处理过程中极简便地排除文献中的高频词(泛指词)。我们建立的停用词表是在多年的工作中积累起来的,共含50364个停用词。

  5.2通用词表

  业内流传有了多个可作为通用词表的语料,经多次切分、标引测评,其中以中国科学院自然语言开放平台提供的带词性词频的扩展词典综合性能较好,故选用其作为农业经济领域非相关文献知识发现的通用词表。

  中国科学院中文自然语言处理开放平台提供的带词性词频的扩展词典(可参考链接:http://www.nlp.org.cn/categories/default.php?catid=10)可用于大规模文本切分,共包含约1.4×105个词。词表中对每个词同时给出了它的词频与词性。所有的词按词频倒排。但是该词典中的词频与词性对我们没有意义,须对带词性词频的扩展词典进行预处理,去除词表中的词频和词性信息,只留下词本身,存入数据库,形成我们所需要的通用词表。

  5.3农业经济专业词表

  目前,国内还没有一部纯粹的农业经济主题词表,即没有现成的农业经济专业词表可以直接用于农业经济领域汉语文献的非相关文献知识发现。农业经济专业词表的可行的创建方式是从大型词表中筛选出与农业经济学有关的词汇,单独组表。

  相对于《汉语主题词表》、《中国分类主题词表》、《社会科学检索词表》等大型综合性词表,农业部情报所等15个单位于1994年联合编制出版的《农业科学叙词表》是世界上收词量最大的农业领域专业叙词表,以之为基础从中抽取农业领域的专业词汇所需的工作量更少、效果更好。《农业科学叙词表》的分类表共有40个大类,其中类目03为农业经济,类目54为经济学。综合各项因素,可以选择《农业科学叙词表》作为非相关文献知识发现农业经济专业词表的来源词表。利用人工手段抽取并手工输入《农业科学叙词表》中的农业经济、经济学与社会科学3个大类中的所有词条,得到第一部农业经济专业词表,共有正式词条2730个。这部词表可称为农业经济叙词表。

  另外,为了弥补农业经济叙词表中新词不足、无法反映时代特点等缺点,选择将维普期刊数据库中农业经济类文献的关键词作为农业经济叙词表的补充。在抽取文献集合的关键词后,经过去重处理,得到的便是第二部农业经济专业词表。由于农业经济类文献的作者关键词标引质量较差,选词比较随意,重复率不高,这份词表共得到词条94991个。这部词表可称为农业经济关键词表。

  农业经济叙词表和农业经济关键词表共同构成汉语农业经济文献知识发现的专业词表,经过合并去重处理后,该专业词表共有96391个词。

  5.4同义词表

  同义词控制是所有词汇控制方式中最有效的措施,甚至可能是词汇控制方式中唯一可以改进性能的措施。哈尔滨工业大学信息检索研究室在梅家驹等人于1983年编纂的印刷型词典《同义词词林》的基础上,利用众多词语相关资源,建立了一部通用的同义词表———同义词词林扩展版。同义词词林扩展版相当于通用词表的同义词表,非相关文献知识发现其实更需要的是专业词表的同义词表。如Swanson利用Medline的词表对Medline数据库所做的那样。《农业科学叙词表》中词汇有完整的词汇控制语义网络,其中的用、代关系即同义词关系。可以用手工方式将《农业叙词表》中的农业经济、经济学与社会科学3个大类词汇的用、代关系转换创建为同义词条,成为农业经济专业的同义词表。如此,共得到193个同义词条,将其补充到同义词词林扩展版中,形成最终的同义词表。

  5.5词表的更新与维护

  词表的更新与维护,是一项长期的工作,只要词表仍在使用,更新与维护工作便不能中断。正如Medline的词表一直在不断地更新与维护一样,非相关文献知识发现词表体系中的各个词表也需要不断地更新与维护。

  对用于农业经济领域非相关文献知识发现的文献集合的题名与文摘运行自动分词算法,其中题名共切分出了801633个词,文摘共切分出了4446771个词,同时发现1186个未登录词。分析原始题名与文摘,人工判定这些未登录词有581个为切分错误,另外605个确实是新词。其中一些有专有意义的词,可依据其词义手工加入到词表体系对应的词表,如“上农下鱼”、“南粮北运”、“包买主制”、“围湖圩垦”、“复垦学”、“消落带”、“毁林复耕”、“生态公益林”、“鸟巢”等。另外,加入新词后,若有必要,还须手工调整同义词表中相应的词条。

  6、农业经济领域非相关文献知识发现用数据集的可用性

  可用性的最好证明是研建的数据集能否用于新知识的发现。针对上述农业经济领域的非相关文献知识发现用数据集,编写程序,实现非相关文献知识发现的开放式和闭合式过程。然后,运行开放式知识发现程序,并不断调整约束条件,仔细观察显示的结果,最后筛选出“世界贸易组织”与“原教旨主义”、“马尔萨斯”与“生态学”、“区域农业保险费率”与“地理信息系统”3对有意义的关联概念。这3对概念中的任何1对,在全部的87506篇文献中的任何1篇文献中都没有同时出现过,也就是说,20年来的汉语农业经济文献从来没有把这3对概念作为研究对象,也从来没有人关注过它们之间的内在关联。

  随后,运行闭合式过程,发现在这3对关联概念中,“世界贸易组织”与“原教旨主义”共有“环境”、“生态”、“环境保护”、“生态保护”、“市场”5个中间词(B词),“马尔萨斯”与“生态学”共有“水资源”、“可持续”、“经济学”、“粮食”4个中间词,“区域农业保险费率”与“地理信息系统”共有“自然灾害”与“风险评价”2个中间词。


   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312